在美国动画片《杰森一家》(The Jetsons)里,主角一家生活在一个高科技的未来世界,所有家务都由机器人女仆Rosie负责。Rosie不仅能像人一样看到环境,还能理解它,从而完成各种任务并应对家庭成员的恶作剧。
虽然Rosie这样的机器人离现实还很遥远,但赋予机器与人类相似的“视觉”能力,即计算机视觉,已经成为人工智能研究和开发的关键领域。
“计算机视觉的核心目标是模仿人类的视觉系统,”美国迪吉彭理工学院新加坡分校的计算机科学副教授刘芳说。“使计算机能快速处理和识别视觉信息。”
计算机视觉无疑将是人工智能的下一个重要战场。毕竟人们在日常生活中对视觉能力的依赖极大,而开发出有视力、能处理视觉信息、并理解世界的机器能彻底改变我们的生活和工作方式。
计算机视觉的进展
计算机视觉最初和最著名的应用是1970年代的光学字符识别(OCR),但这一领域真正迎来飞跃是在21世纪,伴随着人工智能的发展。
根据刘芳的描述,深度学习和神经网络的崛起已经改变了人们对计算机视觉的应用和理解,尤其是在特征提取方面。这意味着将图像数据转换为机器可以解析的数值信息,也即让机器“看见”。
“现在我们能通过训练让计算机自动提取图像特征和识别对象,”她解释道。“这重新定义了计算机视觉所能达到的可能性。”
过去,研究人员需要手工编写算法来实现特征提取,这样每种特征只能应用于特定情境。有了神经网络,研究人员能更方便地“教会”模型关注哪些方面,使其更适用于实际应用。
计算机视觉的潜力
得益于深度学习的进步,今天的计算机视觉应用已经超越了半个世纪前的想象。
比如,在医疗领域,计算机视觉在医学图像分析中发挥着关键作用,它能帮助医生在超声、核磁共振和CT扫描中识别异常。该技术也被广泛应用于安全和监控,能准确地识别潜在的威胁和异常行为。
对于刘芳来说,自动驾驶汽车是一个引人注目的应用场景。她以电动汽车制造商特斯拉的自动驾驶系统“特斯拉视觉”为例,阐述了基于AI的计算机视觉是如何工作的。
“特斯拉不仅采用雷达进行距离测量,还运用计算机视觉技术来识别和分辨道路上的各类物体。通过这一双重手段,其自动驾驶系统能够更全面地了解周围环境,并作出更精准的决策。”
她预测,在不久的将来,计算机视觉将与其他前沿技术,如虚拟现实(VR)和增强现实(AR),相融合,以提供更卓越的用户体验。这不仅在医疗培训、工程和制造等领域具有巨大的应用潜力。
这项技术在多个领域具有实际应用价值,比如在医学领域,AR(增强现实)能助力医学生进行更有效的培训和手术规划;在工程和制造业中,这种技术能用于模拟环境中对重型机械的培训和性能测试。
道阻且长
虽然计算机视觉已经取得显著进步,但依然存在一系列的挑战和局限。例如,计算复杂性和处理能力的不足一直是这一领域难以克服的问题。另外,在模仿人类视觉方面,计算机视觉系统还有待提升。它们可能能识别单一的对象,但却难以全面理解观察到的场景。
此外,该领域也面临着人才短缺的问题。据预测,仅在亚太地区,到2030年人才缺口就将达到4,700万,这无疑是制约行业增长的一大障碍。
尽管如此,已经有大量工作正在进行以解决这些问题。刘芳指出,研究人员正在探究如何将计算机视觉与其他领域——比如自然语言处理——相结合,以弥补计算机视觉当前的不足。一些科学家已经成功地将语言处理技术与计算机视觉结合,让机器能够更好地理解上下文,进而开发出能同时处理语言和视觉信息的AI模型。
“现在,我们并不期望机器能完全像人类那样理解其所观察到的一切,但我们确实希望它能构建出对场景内容的有效表示,从而做出更加合理的决策,”刘芳解释道。
在人才缺口方面,多级政府和各种组织正积极培养AI专才。例如,新加坡政府推出了一系列全面的计划,旨在培养AI人才,同时美国迪吉彭理工学院新加坡分校也推出了计算机视觉硕士课程,以缓解这一人才短缺。
“我们需要一个更为多元化的AI人才池,以推动更多的创新和思考,”刘芳补充说。
“然而,随着计算资源的增加和越来越多的人才涌入这一领域,我们预见到更多令人激动的应用和发展将会出现,”她总结道。“我们的潜力仅受到我们自身想象力的限制。”
---
该文章最初发布于2022年5月6日,来源于Tech in Asia网站。